「因果机器学习」前沿进展最新综述

专知 2023-01-18

收录于合集 #因果机器学习 3个

机器学习是实现人工智能的重要技术手段之一，在计算机视觉、自然语言处理、搜索引擎与推荐系统等领域有着重要应用.现有的机器学习方法往往注重数据中的相关关系而忽视其中的因果关系，而随着应用需求的提高，其弊端也逐渐开始显现，在可解释性、可迁移性、鲁棒性和公平性等方面面临一系列亟待解决的问题.为了解决这些问题，研究者们开始重新审视因果关系建模的必要性，相关方法也成为近期的研究热点之一.在此对近年来在机器学习领域中应用因果技术和思想解决实际问题的工作进行整理和总结，梳理出这一新兴研究方向的发展脉络．首先对与机器学习紧密相关的因果理论做简要介绍；然后以机器学习中的不同问题需求为划分依据对各工作进行分类介绍，从求解思路和技术手段的视角阐释其区别与联系；最后对因果机器学习的现状进行总结，并对未来发展趋势做出预测和展望．

地址：https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.202110780

0. 引言

机器学习是一门研究如何设计算法、利用数据使机器在特定任务上取得更优表现的学科，其中以深度学习[1] 为代表的相关技术已成为人们研究实现人工智能方法的重要手段之一.至今机器学习研究已经取得大量令人瞩目的成就：在图像分类任务上的识别准确率超过人类水平[2] ；能够生成人类无法轻易识别的逼真图像[3] 和文本[4] ；在围棋项目中击败人类顶尖棋手[5] ；蛋白质结构预测结果媲美真实实验结果 [6] 等.目前机器学习在计算机视觉、自然语言处理、搜索引擎与推荐系统等领域发挥着不可替代的作用，相关应用涉及互联网、安防、医疗、交通和金融等众多行业，对社会发展起到了有力的促进作用.

尽管机器学习研究获得了一系列丰硕的成果，其自身的问题却随着应用需求的提高而日益凸显.机器学习模型往往在给出预测结果的同时不会解释其中的理由，以至于其行为难以被人理解[7] ；同时机器学习模型还十分脆弱，在输入数据受到扰动时可能完全改变其预测结果，即使这些扰动在人看来是难以察觉的[8] ；机器学习模型还容易产生歧视行为，对不同性别或种族的人群给予不同的预测倾向，即使这些敏感特征不应当成为决策的原因[9] .这些问题严重限制了机器学习在实际应用中发挥进一步的作用.

造成这一系列问题的一个关键原因是对因果关系的忽视.因果关系，指的是 2 个事物之间，改变一者将会影响另一者的关系.然而其与相关关系有所不同，即使 2 个事物之间存在相关关系，也未必意味着它们之间存在因果关系.例如图像中草地与牛由于常在一起出现而存在正相关关系，然而两者之间却没有必然的因果关系，单纯将草地改为沙地并不会改变图像中物体为牛的本质.机器学习的问题在于其模型的训练过程仅仅是在建模输入与输出变量之间的相关关系，例如一个识别图像中物体类别的机器学习模型容易将沙地上的牛识别为骆驼，是因为训练数据中的牛一般出现在草地上而沙地上更常见的是骆驼.这种具备统计意义上的相关性却不符合客观的因果规律的情况也被称为伪相关（spurious correlation）. 伪相关问题的存在对只考虑相关性的机器学习模型带来了灾难性的影响：利用伪相关特征进行推断的过程与人的理解不相符，引发可解释性问题；在伪相关特征发生变化时模型预测结果会随之改变从而导致预测错误，引发可迁移性和鲁棒性问题；如果伪相关特征恰好是性别和肤色等敏感特征，则模型决策还会受到敏感特征的影响，引发公平性问题.忽视因果关系导致的这些问题限制了机器学习在高风险领域及各类社会决策中的应用.图灵奖得主 Bengio 指出，除非机器学习能够超越模式识别并对因果有更多的认识，否则无法发挥全部的潜力，也不会带来真正的人工智能革命.因此，因果关系的建模对机器学习是必要的，需求也是十分迫切的.

因果理论即是描述、判别和度量因果关系的理论，由统计学发展而来.长期以来，由于缺乏描述因果关系的数学语言，因果理论在统计学中的发展十分缓慢.直到 20 世纪末因果模型被提出后，相关研究才开始蓬勃兴起，为自然科学和社会科学领域提供了重要的数据分析手段，同时也使得在机器学习中应用因果相关的技术和思想成为可能.图灵奖得主 Pearl 将这一发展历程称为“因果革命” [10] ，并列举了因果革命将为机器学习带来的 7 个方面的帮助[11] . 本文将在机器学习中引入因果技术和思想的研究方向称为因果机器学习（causal machine learning）.目前机器学习领域正处于因果革命的起步阶段，研究者们逐渐认识到了因果关系建模的必要性和紧迫性，而因果机器学习的跨领域交叉特点却限制了其自身的前进步伐.本文希望通过对因果理论和因果机器学习前沿进展的介绍，为相关研究者扫清障碍，促进因果机器学习方向的快速发展.目前针对因果本身的研究已有相关综述文献 [12−14]，内容主要涵盖因果发现和因果效应估计的相关方法，但很少涉及在机器学习任务上的应用.综述文献 [15−16] 详细地介绍了因果理论对机器学习发展的指导作用，着重阐述现有机器学习方法的缺陷和因果理论将如何发挥作用，但缺少对这一方向最前沿工作进展的整理和介绍，而这正是本文重点介绍的内容.

1 因果理论简介

因果理论发展至今已成为统计学中的一个重要分支，具有独有的概念、描述语言和方法体系.对于因果关系的理解也已经不再仅停留在哲学概念的层面，而是有着明确的数学语言表述和清晰的判定准则.当前广泛被认可和使用的因果模型有 2 种：潜在结果框架（potential outcome framework）和结构因果模型（structural causal model, SCM）.Splawa-Neyman 等人 [17] 和 Rubin[18] 提出的潜在结果框架又被称为鲁宾因果模型（Rubin causal model, RCM），主要研究 2 个变量的平均因果效应问题；Pearl[19] 提出的结构因果模型使用图结构建模一组变量关系，除了效应估计也会关注结构发现问题.RCM 与 SCM 对因果的理解一致，均描述为改变一个变量是否能够影响另一个变量，这也是本文所考虑的因果范畴.两者的主要区别在于表述方法不同，RCM 更加简洁直白，相关研究更为丰富；而 SCM 表达能力更强，更擅长描述复杂的问题.虽然目前依然存在对因果的其他不同理解，这些理解通常不被视为真正的因果，例如格兰杰因果（Granger causality） [20] 描述的是引入一个变量是否对另一个变量的预测有促进作用，本质上仍是一种相关关系. 本节将对因果相关概念以及 RCM 与 SCM 的相关理论和技术进行简要介绍.由于本文关注的主要内容是因果机器学习而不是因果本身，本节将侧重于介绍机器学习中所使用的因果的概念和思想，而不会过多关注因果领域自身的前沿研究.

2 因果机器学习相关工作介绍

近年来随着因果理论和技术的成熟，机器学习领域开始借助因果相关技术和思想解决自身的问题，这一研究方向逐渐受到研究者越来越多的关注.至今，因果问题被认为是机器学习领域亟待解决的重要问题，已成为当下研究的前沿热点之一.机器学习可以从因果技术和思想中获得多个方面的益处.首先，因果理论是一种针对数据中规律的普适分析工具，借助因果图等语言可以对研究的问题做出细致的分析，有利于对机器学习模型的目标进行形式化以及对问题假设的表述.其次，因果推断提供了消除混杂因素以及进行中介分析的手段，对于机器学习任务中需要准确评估因果效应及区分直接与间接效应的场景有十分重要的应用价值.再者，反事实作为因果中的重要概念，也是人在思考求解问题时的常用手段，对于机器学习模型的构建和问题的分析求解有一定的指导意义. 本节将对近年来因果机器学习的相关工作进行整理介绍，涉及应用领域包括计算机视觉、自然语言处理、搜索引擎和推荐系统等.按照所解决问题的类型进行划分，因果机器学习主要包括以下内容：可解释性问题主要研究如何对已有机器学习模型的运作机制进行解释；可迁移性问题主要研究如何将模型在特定训练数据上学到的规律迁移到新的特定环境；鲁棒性问题主要研究寻找普适存在的规律使模型能够应对各种未知的环境；公平性问题主要研究公平性度量指标并设计算法避免歧视；反事实评估问题主要研究如何在存在数据缺失的场景中进行反事实学习.这些问题与因果理论的关系如图 4 所示，下面针对这些问题分别展开介绍.

2.1　可解释性问题

机器学习模型会根据给定输入计算得到对应的输出，但一般不会给出关于“为什么会得到此输出” 的解释.然而这种解释有助于人们理解模型的运作机制，合理的解释能够使结果更具有说服力.因此近年来涌现出许多致力于为现有模型提供解释方法的工作，为模型的诊断分析提供了有效手段[39] .解释的核心在于“模型得到此输出，是因为输入具有什么样的特征”，这本质上是在探讨在此模型参与过程中输入特征与输出结果之间的因果关系，例如估计特征对输出变量的因果效应强度. 由于机器学习模型对输入数据的处理过程是一个独立而完整的过程，输入与输出变量之间一般不会受到混杂因素的影响，因此即使不使用因果术语也可以对任务进行描述.这体现为早期的模型解释方法并不强调因果，少数强调因果的方法也并不一定依赖因果术语.因果理论的引入为可解释性问题领域带来的贡献主要有 2 个方面：一是在基于归因分析的解释方法中建模特征内部的因果关系；二是引入一类新的解释方法即基于反事实的解释.基于归因分析和基于反事实的解释构成了当前最主要的 2 大类模型解释方法如表 1 所示，以下分别展开介绍.

2.2　可迁移性问题

机器学习研究通常会在一个给定的训练数据集上训练模型，然后在同数据分布的验证集或测试集上进行测试，这种情况下模型的表现称为分布内泛化（in-distribution generalization）.在一般的应用场景中，机器学习模型会部署在特定数据环境中，并使用该环境中产生的数据进行模型训练，其性能表现可以用分布内泛化能力来度量.然而在一些场景中，目标环境中的标注数据难以获取，因此更多的训练数据只能由相似的替代环境提供.例如训练自动驾驶的智能体时由于风险过高不能直接在真实道路上行驶收集数据，而只能以模拟系统中所获取的数据为主进行训练.这种场景下的机器学习任务又称为域适应（domain adaptation），属于迁移学习（transfer learning）的范畴，即将源域（source domain）中所学到知识迁移至目标域（target domain）.这里的域（domain）和环境（environment）的含义相同，可以由产生数据的不同概率分布来描述，下文将沿用文献中各自的习惯称呼，不再对这 2 个概念进行区分.

在可迁移性问题中，因果理论的主要价值在于提供了清晰的描述语言和分析工具，使研究者能够更准确地判断可迁移和不可迁移的成分，有助于设计针对不同场景的解决方案.因果推断中关注的效应估计问题本质上是在研究改变特定环境作用机制而保持其他机制不变的影响，这与迁移学习中域的改变的假设相符，即目标域和源域相比继承了部分不变的机制可以直接迁移，而剩余部分改变的机制则需要进行适应.因此在因果理论的指导下，迁移学习中的关键问题就是建模并识别变与不变的机制.目前因果迁移学习一般假设输入与输出之间有直接因果关系，重点关注无混杂因素情况下变量的因果方向和不变机制，如表 2 所示，以下介绍相关工作.

2.3　鲁棒性问题

迁移学习允许模型获得目标环境的少量数据以进行适应学习，然而在一些高风险场景中，可能需要机器学习模型在完全陌生的环境中也能正常工作，如医疗、法律、金融及交通等.以自动驾驶为例，即使有大量的真实道路行驶数据，自动驾驶智能体仍会面临各种突发情况，这些情况可能无法被预见但仍需要被正确处理.这类任务无法提供目标环境下的训练数据，此时模型的表现称为分布外泛化（out-ofdistribution generalization）.如果模型具有良好的分布外泛化能力，则称其具有鲁棒性（robustness）. X Y P ′ (X, Y) P(X, Y) Y X P ′ (X|Y) = P(X|Y) 这类问题在未引入因果术语的情况下就已经展开了广泛的研究.如分布鲁棒性研究[79-81] 考虑当数据分布改变在一定幅度之内时如何学习得到鲁棒的模型，常见思路是对训练样本做加权处理；对抗鲁棒性研究[8,82-83] 考虑当样本受到小幅度扰动时模型不应当改变输出结果，常见思路是将对抗攻击样本加入训练.这类研究常常忽略变量间的因果结构，面临的主要问题是很难决定数据分布或者样本的扰动幅度大小和度量准则，这就使得研究中所做的假设很难符合真实场景，极大地限制了在实际中的应用.因果理论的引入为建模变量间的结构提供了可能，同时其蕴含的“机制不变性”原理为鲁棒性问题提供了更合理的假设，因为真实数据往往是从遵循物理规律不变的现实世界中采集获得.例如针对输入为、输出为的预测问题，不考虑结构的分布鲁棒性方法会假设未知环境应当与真实环境的差异较小，如限制联合分布的 KL 散度小于一定阈值；而考虑结构的因果方法则通常会假设机制不变，例如当是的因时假设，在因果关系成立的情况下后者通常是更合理的. 一些从伪相关特征入手研究鲁棒性问题的工作虽然未使用因果术语，实际上已经引入了因果结构的假设.这些工作针对的往往是已知的伪相关特征，如图像分类任务中的背景、文本同义句判断 SNLI 数据集中的单条文本[84]、重复问题检测 QuaraQP 数据集中的样本频率[85] 等.在实际场景中针对这些伪相关特征进行偏差去除（debias），以避免其分布发生变化时影响模型表现.这类工作隐含的假设是伪相关特征与目标预测变量没有因果关系.一种直接的解决方法是调整训练数据的权重，使得伪相关特征不再与预测变量相关[85] .还有一类方法会单独训练一个仅使用伪相关特征预测的模型，然后将其与主模型融合在一起再次训练，完成后仅保留主模型[86-87] .然而由于实际应用中通常很难预先确定伪相关特征，这类工作在解决鲁棒性问题上具有明显的局限性. 因果理论的引入对于解决鲁棒性问题提供了新的思路，主要的优势在于对变量结构的建模和更合理的假设.这类方法包括反事实数据增强（counterfactual data augmentation）、因果效应校准和不变性学习.如表 3 所示，反事实数据增强考虑从数据入手消除伪相关关系，因果效应校准通过调整偏差特征的作用来减轻偏差，不变性学习通过改变建模方式学习不变的因果机制，以下分别展开介绍.

2.4　公平性问题

机器学习中的公平性（fairness）指的是，对于特定的敏感特征如性别、年龄、种族等，不同的取值不应该影响某些任务中机器学习模型的预测结果，如贷款发放、法律判决、招生招聘等.公平性对于机器学习在社会决策中的应用是十分重要的考虑因素，与因果有密切的关系，直观上体现为敏感特征不应成为预测结果的因变量.模型中存在的不公平常常由伪相关特征问题导致，因此公平性也可以视为针对敏感特征的鲁棒性，但有着自己独有的术语和研究体系.下面首先介绍一下公平性的基本概念，然后介绍因果理论在公平性问题中的应用. A X Y f Yˆ = f(A, X) f(A, X) = f(X) 公平性的定义和度量指标目前十分多样化，并没有完全统一确定，不同的定义所反映的问题也有所不同，甚至可能是相互不兼容的[139] .为便于表述，记敏感特征为，其他观测特征为，真实输出结果为，模型为，模型预测结果为（本节所用符号与前文无关）.早期公平性问题的相关工作并没有考虑因果，最简单直白的方式是在决策时避免使用敏感特征[140] ，即 .然而这一方案显然是不够的，因为其他特征中也可能会包含敏感特征的信息.因此一般会考虑个体级别的公平性或者群体级别的公平性的度量，并设计方法实现.个体公平性（individual fairness）通常会限制相似的个体之间应该 P(Yˆ|A = 0) = P(Yˆ|A = 1) P (Yˆ|A = 0, Y = 1) = P(Yˆ|A = 1, Y = 1) F P(Yˆ|A = 0, F) = P(Yˆ|A = 1, F) 有相似的预测结果[141] ，难点在于相似性指标的设计. 群体公平性（group fairness）会定义不同的群体并设置度量指标使得各个群体之间差异尽可能小，一种思路是人群平等（demographic parity） [142] ，希望在不同敏感特征取值的群体中预测结果的分布一致，即；另一种思路是机会均等（equality of opportunity） [143] ，希望在那些本该有机会的人群所获得的机会不受敏感特征的影响，即；还有一种思路是条件公平（conditional fairness） [144] ,希望在任意公平变量条件下不同敏感特征群体的结果一致，即 .这些定义并不考虑特征内部的依赖关系，对模型的决策机制也没有区分性，在更细致的公平性分析中难以满足要求.因果理论的引入为公平性研究起到了极大的推动作用，许多概念必须借助因果的语言才能表达，如表 4 所示:

2.5　反事实评估问题

反事实评估（counterfactual evaluation）指的是机器学习模型的优化目标本身是反事实的，这通常出现在使用有偏差的标注数据训练得到无偏模型的情景，例如基于点击数据的检索和推荐系统学习任务.由于任务本身需要反事实术语进行表述，因果理论对这类问题的建模和研究起到了关键性的作用，如表 5 所示：

3 总结与展望

本文介绍了因果相关的概念、模型和方法，并着重对因果机器学习在各类问题上的前沿研究工作展开详细介绍，包括可解释性问题、可迁移性问题、鲁棒性问题、公平性问题和反事实评估问题等.从现有的应用方式来看，因果理论对于机器学习的帮助在不同的问题上具有不同的表现，包括建模数据内部结构、表达不变性假设、引入反事实概念和提供效应估计手段等，这在缺少因果术语和方法的时代是难以实现的.有了因果理论的帮助，机器学习甚至可以探讨过去无法讨论的问题，如干预和反事实操作下的预测问题. 对于可解释性、公平性和反事实评估问题，因果理论和方法已成为描述和求解问题所不可缺少的一部分，且应用方式也渐趋成熟.这是由于对特征的重要程度的估计、对模型公平性的度量和对反事实策略效用的评估均属于因果效应估计的范畴，问题本身需要使用因果的术语才能得到清晰且完整的表达，因果推断的相关方法自然也可以用于问题的求解.可以预见，未来这些问题将继续作为因果理论和方法的重要应用场景，伴随因果推断技术的发展，向着更加准确和高效的目标前进. 对于可迁移性和鲁棒性问题，目前所采用的因果相关方法大多还处于较浅的层次，有待深入挖掘探索.在这些问题上，因果推断的相关技术不易直接得到应用，这是由于这类问题的目标不再是单纯估计因果效应或者发现因果结构，而是需要识别跨环境不变的机制.这对于因果而言是一项全新的任务，需要研究新的方法来求解.在机器学习尤其是深度学习中，这项任务的主要难点在于数据的高维复杂性. 对于图像和文本等数据而言，其显式特征高度耦合，难以从中提取出有效的因果变量，阻碍了效应估计和结构发现等后续分析手段.目前所采用的反因果迁移、反事实数据增强和因果效应校准等手段大多只能针对可观测的已知变量进行处理，适用范围受到很大限制.相对地，不变性学习有能力处理未知的伪相关特征并识别因果特征，具有良好的发展前景.然而目前的不变性学习方法也存在局限性，主要在于对数据做了较强的因果结构假设，一方面数据可能无法满足假设而又缺少验证假设的手段，另一方面需要为满足不同假设的数据设计不同的方法而缺乏通用性.因此，未来在这些方向上都值得开展研究.一种思路是继续针对具体任务做出不同的因果结构假设，并设计对应的学习算法，这就需要构建成体系的解决方案并配备验证假设的手段；另一种思路是从数据本身出发，推断和发现潜在的因果结构，这就需要研究全新的方法来突破由数据的高维复杂性带来的障碍. 从因果机器学习的研究进展来看，机器学习领域的因果革命将大有可为.不可否认，当前正处于因果革命的起步阶段，由于现实问题存在极高的复杂性，这一革命的历程也将曲折而艰辛，需要更多的研究和支持.希望更多的研究者能够加入到因果机器学习的研究中来，共同创造和见证因果革命的新时代.

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）
后台回复“CML23” 就可以获取《「因果机器学习」前沿进展最新综述》专知下载链接

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“阅读原文”，了解使用专知，查看获取100000+AI主题知识资料

付鹏 —— 《2024年年终回顾和2025年展望——对冲风险VS软着陆》

湖南60岁富婆沉迷打牌，输掉1个多亿，丈夫还清后离婚，她却说：你这是阴谋

广东女子不想上班坐街边乞讨，因长相好看被路人投喂，知情人：又懒又馋！！

炸裂大瓜！九比童“厉害”，女网红再嘲童锦程！哲家财团豪刷柚柚CC！

假人气挂机房！旭旭宝宝怒斥抖音官方！大美直播爆瓜阿哲高迪！

「因果机器学习」前沿进展最新综述

您可能也对以下帖子感兴趣

付鹏 —— 《2024年年终回顾和2025年展望——对冲风险VS软着陆》

湖南60岁富婆沉迷打牌，输掉1个多亿，丈夫还清后离婚，她却说：你这是阴谋

广东女子不想上班坐街边乞讨，因长相好看被路人投喂，知情人：又懒又馋！！

炸裂大瓜！九比童“厉害”，女网红再嘲童锦程！哲家财团豪刷柚柚CC！

假人气挂机房！旭旭宝宝怒斥抖音官方！大美直播爆瓜阿哲高迪！

生成图片，分享到微信朋友圈

「因果机器学习」前沿进展最新综述

您可能也对以下帖子感兴趣